tg-me.com/knowledge_accumulator/8
Last Update:
Deepmind AlphaCode - конкурент OpenAI Codex, который работает примерно так:
Сначала языковую модель претрейнят на всём GitHub.
Для файнтюна используется собственный датасет с задачками и решениями. В нём есть ещё и мета-информация (например, тег задачи), которая используется только при файнтюне.
В файнтюне есть ещё пара инкрементальных хаков, я это опущу.
Сэмплирование программы гораздо хитрее:
- Генерируется куча (до 10^6) программ, фильтруются по образцам из условия
- Отдельная модель генерирует тестовые данные для задачи (корректность не важна), и по выходам на этих данных программы кластеризуют.
- Представители кластеров отправляются на тестирование.
В результате при строгом ограничении на кол-во итоговых программ модель сильно обходит Codex (думаю, благодаря хитрому этапу генерации), но потолок сложности задач, которые система может решать, такой же невысокий, как у Codex.
Также для хайпа модель отправили на Codeforces и она там нарешала на медианный рейтинг.
BY Knowledge Accumulator

Share with your friend now:
tg-me.com/knowledge_accumulator/8